Forest fire dataset EDA

1. Wczytanie bibliotek i danych

1.1 Wczytanie bibliotek

1.2 Wczytanie danych

Z opisu wykonanego przez autora danych wiadomo, że w zbiorze nie ma brakujących wartości.

1.3 Opis i typy kolumn

2 Analiza

Indeksy DMC i DC mają dużą wariancję.
W kolumnie rain w większości są zera.

W kolumnie area również występuje dużo zer, możemy więc spróbować przetransformować ją logarytmicznie.

Większość pożarów występuje w drugiej połowie lata tj. sierpień oraz wrzesień.

W okresie weekendu występuje więcej pożarów.

2.1 Rozkłady

Poza FFMC, wszystkie współczynniki oraz temperatura i wilgotność mają rozkład zbliżony do rozkładu normalnego.
rain oraz area jak wcześniej zauważono są blisko zera.

Intersuje nas głównie kolumna area, aby poprawić dane można usunąć wartości odstające.

2.3 Korelacje

area jest najbardziej skorelowana z wind jednak nadal jesto tylko 0.1, z pozostałymi jest słabo skorelowana.

4. Zautomatyzowana EDA

Plusy:

Minusy: